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Beschreibung 

Graphem-Phonem-Konvertierung 

5 Die Erfindung betrifft ein Verfahren, ein Computerprogramm- 
produkt, einen Datentrager und ein Computersystem zur Gra- 
phem-Phonem-Konvertierung eines Worts, das als Ganzes nicht 
in einem Aussprachelexikon enthalten ist. 

10 Sprachverarbeitungsverf ahren im Allgemeinen sind beispiels- 
weise aus US 6 029 135, US 5 732 388, DE 19636739 CI und DE 
19719381 CI bekannt. Bei einem Sprachsynthese-System ist die 
Schrif t-zu-Sprache- bzw. Graphem-Phonem-Konvertierung der zu 
sprechenden Worter von entscheidender Bedeutung. Fehler bei 

15 Lauten, Silbengrenzen und der Wortbetonung sind direkt hor- 
bar, konnen zur Unverstandlichkeit fiihren und im schlimmsten 
Fall sogar den Sinn einer Aussage verdrehen. 

Die beste Qualitat erhalt man, wenn das zu sprechende Wort in 
20 einem Aussprachelexikon enthalten ist. Die Verwendung solcher 
Lexika bereitet jedoch Probleme. Auf der einen Seite erhoht 
die Anzahl der Eintrage den Suchaufwand. Auf der anderen Sei- 
te ist es gerade bei Sprachen wie dem Deutschen nicht 
moglich, alle Worter in einem Lexikon zu erfassen, da die 
25 Moglichkeiten der Komposi tab il dung nahezu unbeschrankt sind. 



Abhilfe kann in diesem Fall eine morphologische Zerlegung 
schaffen. Ein Wort, das nicht im Lexikon gefunden wird, wird 
in seine morphologischen Bestandteile wie Prafixe, Stamme und 
30 Suffixe zerlegt, und diese Bestandteile werden im Lexikon ge- 
sucht. Eine morphologische Zerlegung ist jedoch gerade bei 
langen Wortern problematisch, weil die Anzahl der moglichen 
Zerlegungen mit der Wortlange steigt. Sie erfordert auflerdem 
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ein ausgezeichnetes Wissen uber die Wortbildungsgrammatik ei- 
ner Sprache. Daher werden Wortern, die nicht in einem Aus- 
sprachelexikon gefunden werden, mit Out-Of-Vocabulary- 
Verfahren (OOV-Verf ahren) , z.B. mit Neuronalen Netzen, 
5 transkribiert . Solche OOV-Behandlungen sind allerdings rela- 
tiv rechenintensiv und fiihren in aller Regel zu schlechteren • 
Ergebnissen als die phonetische Konvertierung ganzer Worter 
mit Hilfe eines Aussprachelexikons. Zur Bestimmung der Aus- 
sprache eines Worts, das nicht in einem Aussprachelexikon 

10 enthalten ist, kann das Wort auch in Teilworter zerlegt wer- 
den. Die Teilworter konnen mit Hilfe eines Aussprachelexikons 
oder eines OOV-Verf ahrens transkribiert werden. Die gefunde- 
nen Teiltranskriptionen konnen aneinander gehangt werden. 
Dies ftlhrt jedoch zu Fehlern an den Trennstellen zwischen den 

15 Teiltranskriptionen . 

Aufgabe der Erfindung ist es, das Aneinander fugen von 
Teiltranskriptionen zu verbessern. Diese Aufgabe wird durch 
ein Verfahren, ein Computerprogrammprodukt , einen Datentrager 
2 0 und ein Computer system gemaii den unabhangigen Anspruchen ge- 
lost . 

Dabei wird unter einem Computerprogrammprodukt das Computer- v 
programm als handelbares Produkt verstanden, in welcher Form 
25 auch immer, z.B. auf Papier, auf einem computerlesbaren Da- 
tentrager, uber ein Netz verteilt, etc. 

Erf indungsgemafi wird bei der Graphem-Phonem-Konvertierung ei- 
nes Worts, das als Ganzes nicht in einem Aussprachelexikon 
30 enthalten ist, zunachst das Wort in Teilworter zerlegt. An- 
schliefiend wird eine Graphem-Phonem-Konvertierung der Teil- 
worter durchgef lihrt . 
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Die Transkriptionen der Teilworter werden hintereinander auf- 
gereiht, wobei sich mindestens eine Schnittstelle zwischen 
den Transkriptionen der Teilworter ergibt . Die an die mindes- 
tens eine Schnittstelle grenzenden Phoneme der Teilworter 
5 werden bestimmt. 

Dabei besteht die Moglichkeit, nur das letzte Phonem des in 
der zeitlichen Reihenfolge der Aussprache vor der Schnitt- 
stelle liegenden Teilworts zu beriicksichtigen . Besser ist es 

10 jedoch, wenn sowohl das genannte als auch das erste Phonem 

der folgenden Silbe fur die erf indungsgemaiie Sonderbehandlung 
ausgewahlt werden. Noch bessere Ergebnisse werden erzielt, 
wenn weitere angrenzende Phoneme einbezogen werden, z.B. ein 
oder zwei Phoneme vor der Schnittstelle und zwei nach der 

15 Schnittstelle. 



Anschlieflend werden diejenigen Grapheme der Teilworter be- 
stimmt, die die an die mindestens eine Schnittstelle grenzen- 
den Phoneme erzeugen. Dies kann mittels eines Lexikons erfol- 
20 gen, das angibt, durch welche Grapheme diese Phoneme erzeugt 
wurden. Wie das Lexikon zu erstellen ist, ist in Horst-Udo 
Hain: "Automation of the Training Procedures for Neural Net- 
works Performing Multi-Lingual Grapheme to Phoneme Conversi- 
on", Eurospeech 1999, S. 2087-2090, ausgefuhrt. 

25 

Danach wird die Graphem-Phonem-Konvertierung der bestimmten 
Grapheme im Kontext, das heiflt in Abhangigkeit des Kontexts, 
der jeweiligen Schnittstelle neu berechnet . Dies ist nur mog- 
lich, weil klar ist, welches Phonem durch welches Graphem 
30 bzw. welche Grapheme erzeugt wurde . 
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Die Schnittstellen zwischen den Teiltranskriptionen werden 
somit gesondert behandelt. Gegebenenf alls werden Anderungen 
an den vorher ermittelten Teiltranskriptionen vorgenommen. 
Ein fur ein Sprachsynthese-System nicht unerheblicher Vorteil 
5 der Erfindung ist die Beschleunigung der Berechnung. Wahrend 
Neuronale Netze fur die Konvertierung der 310000 Worter eines' 
typischen Lexikons fur die deutsche Sprache ca. 80 Minuten 
bendtigen, geschieht dies mit dem erf indungsgemaiien Ansatz in 
nur 2 5 Minuten . 

10 

In einer vorteilhaf ten Weiterbildung der Erfindung kann die 
Graphem-Phonem- Konvertierung der Grapheme im Kontext der je-" 
weiligen Schnittstelle mittels eines Neuronalen Netzes neu 
berechnet werden. Ein Aussprachelexikon hat den Vorteil, die 

15 "richtige" Transkription zu liefern. Es versagt jedoch, wenn 
unbekannte Worter auftreten. Neuronale Netze konnen hingegen 
fiir jede beliebige Zeichenkette eine Transkription liefern, 
machen dabei aber unter Umstanden erhebliche Fehler. Die Wei- 
terbildung der Erfindung kombiniert die Sicherheit des Lexi- 

20 kons mit der Flexibilitat der Neuronalen Netze. 

Die Transkription der Teilworter kann auf verschiedene Weise 
erfolgen, z.B. mittels einer Out-of-Vocabulary-Behandlung ^ 
(OOV-Behandlung) . Ein recht zuverlassiger Weg besteht darin, 

25 fur das Wort in einer Datenbank, die phonetische Transkripti- 
onen von Wortern enthalt, nach Teilwortern zu suchen. Als 
Transkription wird dann fiir ein in der Datenbank gefundenes 
Teilwort die in der Datenbank verzeichnete phonetische 
Transkription gewahlt. Dies fuhrt fiir die meisten Worter bzw. 

30 Teilworter zu brauchbaren Ergebnissen. 

Falls das Wort neben dem gefundenen Teilwort mindestens einen 
weiteren Bestandteil aufweist, der nicht in der Datenbank 
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verzeichnet ist, kann dieser mittels einer OOV-Behandlung 
phonetisch transkribiert werden. Die OOV-Behandlung kann mit- 
tels eines statistischen Verfahrens, z.B. mittels eines Neu- 
ronalen Netzes, oder regelbasiert erfolgen. 

Vorteilhaf terweise wird das Wort in Teilworter einer gewissen 
Mindestlange zerlegt, damit moglichst grolie Teilworter gefun- 
den werden und entsprechend wenig Nachbesserungen anf alien. 

Weitere vorteilhafte Weiterbildungen der Erfindung sind in 
den Unteranspriichen gekennzeichnet . 

Im folgenden wird die Erfindung anhand von Ausf uhrungsbei- 
spielen naher erlautert, die in den Figuren schematisch dar- 
gestellt sind, Im einzelnen zeigt: 

Fig. 1 ein zur Graphem-Phonem-Konvertierung geeignetes 

Computer system; und 
Fig. 2 eine schematische Darstellung des erf indungsgema- 

13en Verfahrens. 

Fig. 1 zeigt ein zur Graphem-Phonem-Konvertierung eines Worts 
geeignetes Computersystem. Dies weist einen Prozessor (pro- 
cessor, CPU) 20, einen Arbeitsspeicher (RAM) 21, einen Pro- 
grammspeicher (programm memory, ROM) 22, einen Festplatten- 
Controller (hard disc controller, HDC) 23, der eine Festplat- 
te (hard disk) 30 steuert, und einen Schnittstellen- 
Controller (I/O controller) 24 auf. Prozessor 20, Arbeits- 
speicher 21, Programmspeicher 22, Festplatten-Controller 23 
und Schnittstellen-Controller 24 sind iiber einen Bus, den 
CPU-Bus 25, zum Austausch von Daten und Befehlen miteinander 
gekoppelt. Ferner weist der Computer einen Ein-/Ausgabe-Bus 
(I/O Bus) 26 auf, der verschiedene Ein- und Ausgabeeinrich- 
tungen mit dem Schnittstellen-Controller 24 koppelt. Zu den 
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Ein- und Ausgabeeinrichtungen zahlen z.B. eine allgemeine 
Ein- und Ausgabe-Schnittstelle (I/O interface) 27, eine An- 
zeigeeinrichtung (display) 28, eine Tastatur (keyboard) 29 
und eine Maus 31.) 

5 

Betrachten wir als Beispiel fur die Graphem-Phonem- 
Konvertierung das deutsche Wort "uberf liissigerweise" . 

Zunachst wird versucht, das Wort in Teilworter zu zerlegen, 
10 die Bestandteile eines Aussprache-Lexikons sind. Urn die An- 
zahl der moglichen Zerlegungen auf ein sinnvolles Mafi zu be- 
schranken, wird fiir die gesuchten Bestandteile eine Mindest-' 
lange vorgegeben. Fiir die deutsche Sprache haben sich 6 Buch- 
staben als Mindestlange in der Praxis bewahrt. 



15 



20 



m 



Alle gefundenen Bestandteile werden in einer verketteten Lis- 
te abgespeichert . Bei mehreren Moglichkeiten wird immer der 
langste Bestandteil bzw. der Pfad mit den langsten Bestand- 
teilen verwendet . 



Werden nicht alle Teile des Worts als Teilworter im Ausspra- 
chelexikon gefunden, so werden die verbleibenden Liicken im 4 
bevorzugten Ausf iihrungsbeispiel durch ein Neuronales Netz g e ^^\ 
schlossen. Im Gegensatz zur Standardanwendung des Neuronalen 

25 Netzes, bei der die Transkription fiir das ganze Wort erstellt 
werden muss, ist die Aufgabe beim Auffullen der Liicken einfa- 
cher, weil zumindest der linke Phonemkontext als sicher ange- 
nommen werden kann, da er ja aus dem Aussprachelexikon 
stammt. Die Eingabe der vorhergehenden Phoneme stabilisiert 

30 somit die Ausgabe des Neuronalen Netzes fur die zu fiillende 
Liicke, da das zu generierende Phonem nicht nur von den Buch- 
staben, sondern auch vom vorhergehenden Phonem abhangt . 
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Ein Problem beim Aneinanderhangen der Transkriptionen aus dem 
Lexikon sowie bei der Bestimmung der Transkription fur die 
Lucken mittels eines Neuronalen Netzes besteht darin, dafi in 
einigen Fallen der letzte Laut der vorhergehenden, linken 
5 Transkription verandert werden muss. Dies ist bei dem be- 

trachteten Wort "liberf llissigerweise" der Fall. Es wird im Le- 
xikon als Ganzes nicht gefunden, dafur aber das Teilwort "u- 
berflussig" und das Teilwort "erweise". 

10 Im Folgenden werden Grapheme zur besseren Unterscheidung in 
spitz en Klammern <> eingeschlossen und Phoneme in eckigen 
Klammern [ ] . 

Die Endung <-ig> am Silbenende wird gesprochen wie [IC], dar- 
15 gestellt in der Lautschrift SAMPA, also wie [I] (ungespannter 
kurzer ungerundeter vorderer Vokal) gefolgt vom Ich-Laut [C] 
(stimmloser palataler Frikativ) . Die Vorsilbe <er-> wird ge- 
sprochen wie [Er] , mit einem [E] (ungespannter kurzer unge- 
rundeter halboffener vorderer Vokal, offenes "e") und einem 
20 [r] (zentraler Sonorant) . 

Beim einfachen Verketten der Transkriptionen wird sinnvoller- 
weise automatisch eine Silbengrenze zwischen den beiden Wor- 
tern eingeftigt, dargestellt durch einen Bindestrich Es 
25 ergibt sich somit als Gesamttranskription des Worts <tiber- 
f lussigerweise> 

[y: - b6 - flY - sIC - Er - val - z@] 

30 statt richtigerweise 



[y: - b6 - flY - si - g6 - val - z@] 
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mit einem [g] ( stimmhaf ter velarer Plosiv) und einem [6] 
(nichtbetonter zentraler halboffener Vokal mit velarer Far- 
bung) sowie einer verschobenen Silbengrenze . Somit waren an 
der Wortgrenze Laut und Silbengrenze falsch. 

5 

Abhilfe kann hier geschaffen werden, indem ein Neuronales 
Netz den letzten Laut der linken Transkription berechnet . Da- 
bei stellt sich aber die Frage, welche Buchstaben am Ende der 
linken Transkription zur Bestiminung des letzten Lautes heran- 
10 gezogen werden sollen. 

Fur diese Entscheidung wird ein spezielles Aussprachelexikon 
benutzt. Die Besonderheit an diesem Lexikon besteht darin, 
dafl es die Information enthalt, welche Graphemgruppe zu wel- 
15 chem Laut gehort. Wie das Lexikon zu erstellen ist, ist in 
Horst-Udo Hain: "Automation of the Training Procedures for 
Neural Networks Performing Multi-Lingual Grapheme to Phoneme 
Conversion". Eurospeech 1999, S. 2087-2090, ausgefiihrt. 

20 Der Eintrag fur "liber f ltissig" hat in diesem Lexikon die Form 



ii 




b 


er 




f 


1 


ii 




ss 


i 


g 




y: 




b 


6 




f 


1 


y 




s 


I 


c 





Damit kann eindeutig bestimmt werden, aus welcher Graphem- 
gruppe der letzte Laut entstanden ist, namlich aus dem <g>. 

25 

Das Neuronale Netz kann nun mit Hilfe des jetzt vorhandenen 
rechten Kontextes <erweise> neu iiber Phonem und Silbengrenze 
am Wortende entscheiden. Das Ergebnis ist in diesem Falle das 
Phonem [g] , vor dem eine Silbengrenze gesetzt wird. 

30 
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Jetzt ist die Silbengrenze an der richtigen Stelle und das 
<g> wird auch als [g] transkribiert und nicht als [C] . 

Der erste Laut der rechten Transkription wird nach dem 
gleichen Schema neu bestimmt. Die richtige Transkription fur 
5 <er-> von <erweise> ist an dieser Stelle [6] und nicht [Er] . 
Hier sind gleich zwei Laute zu revidieren, weshalb im 
bevorzugten Ausf uhrungsbeispiel stets zwei Laute revidiert 
werden. 

10 Im Ergebnis erhalt man die korrekte phonetische Transkription 
an dieser Schnittstelle . 

0 Weitere Verbesserungen sind zu erzielen, wenn fur das Ausfiil- 

len der Transkriptionslucken nicht das Standardnetz verwendet 

15 wird, das zur Konvertierung ganzer Worter trainiert wurde, 
sondern ein speziell zum Ausfiillen der Lucken trainiertes 
Netz. Zumindest in den Fallen, bei denen der rechte Phonem- 
kontext auch vorhanden ist, bietet sich ein Spezialnetz an, 
das unter Verwendung des rechten Phonemkontextes liber den zu 

20 generierenden Laut entscheidet. 



2000 P 15039 



10 

Patentanspriiche 

1. Verfahren zur Graphem-Phonem-Konvertierung eines Wortes, 
das als Ganzes nicht in einem Aussprachelexikon enthalten 

5 ist, mit folgenden Schritten: 

a) das Wort wird in Teilworter zerlegt, 

b) eine Graphem-Phonem-Konvertierung der Teilworter wird 
durchgef iihrt , 

c) die durch die Konvertierung erhaltenen Transkriptionen der 
10 Teilworter werden hintereinander aufgereiht, wobei sich 

mindestens eine Schnittstelle zwischen den Transkriptionen 
der Teilworter ergibt, 

d) die an die mindestens eine Schnittstelle grenzenden Phone- 
me der Teilworter werden bestimmt, 

15 e) es werden diejenigen Grapheme der Teilworter bestimmt, die 
die an die mindestens eine Schnittstelle grenzenden Phone- 
me erzeugen, 

f) die Graphem-Phonem-Konvertierung der bestimmten Grapheme 
wird im Kontext der jeweiligen Schnittstelle neu berech- 
20 net. 

2. Verfahren nach Anspruch 1, 

dadurch gekennzeichnet, 

dass die Graphem-Phonem-Konvertierung der bestimmten Grapheme 
25 im Kontext der jeweiligen Schnittstelle mittels eines Neuro- 
nalen Netzes neu berechnet werden. 

3. Verfahren nach Anspruch 1, 

dadurch gekennzeichnet, 
30 dass die Graphem-Phonem-Konvertierung der bestimmten Grapheme 
im Kontext der jeweiligen Schnittstelle mittels eines Lexi- 
kons neu berechnet werden. 
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4. Verfahren nach einem der vorhergehenden Anspruche, 
dadurch gekennzeichnet, 

dass fur das Wort in einer Datenbank, die phonetische 
Transkriptionen von Wortern enthalt, nach Teilwortern des 
Worts gesucht wird; und- dass fur ein in der Datenbank gefun 
denes Teilwort die in der Datenbank verzeichnete phonetische 
Transkription gewahlt wird. 

5. Verfahren nach Anspruch 4, 

dadurch gekennzeichnet, 

dass das Wort neben dem gefundenen Teilwort mindestens einen 
weiteren Bestandteil aufweist, der nicht in der Datenbank 
verzeichnet ist; und- dass dieser weitere Bestandteil mittel 
einer OOV-Behandlung phonetisch transkribiert wird. 

6. Verfahren nach einem der vorhergehenden Anspruche, 
dadurch gekennzeichne t,dass das Wort in 
Teilworter einer gewissen Mindestlange zerlegt wird. 

7. Computerprogrammprodukt, das durch einen Computer ausfuhr 
bar ist und dabei die Schritte nach einem der Anspruche 1 bi 
6 ausfuhrt. 

8. Computerprogrammprodukt, das auf einem computergeeigneten 
Medium gespeichert ist und computerlesbare Programmmittel urn 
faftt, die es einem Computer ermoglichen, das Verfahren nach 
einem der Anspruche 1 bis 6 auszufuhren. 

9. Datentrager, auf dem ein Computerprogramm gespeichert ist 
das es einem Computer ermoglicht, durch einen Ladeprozess da; 
Verfahren nach einem der Anspruche 1 bis 6 auszufuhren. 
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10. Computer system mit Mitteln zum Ausfiihren des Verfahrens 
nach einem der Anspriiche 1 bis 6. 

11. Computersystem zur Graphem-Phonem-Konvertierung eines 
Worts, das als Ganzes nicht in einem Aussprachelexikon ent- 
halten ist, 

- einer Speichereinrichtung (22, 30) zum Speichern eines Com 
puterprogramms auf einem Speichermedium; 

- einer Verarbeitungseinheit (20) zum Laden des Computerpro- 
gramms aus der Speichereinrichtung und zum Ausfiihren des 
Computerprogramms ; 

- mit Mitteln zum Zerlegen des Worts in Teilworter; 

- mit Mitteln zum hintereinander Aufreihen der Transkriptio- 
nen der Teilworter, wobei sich mindestens eine Schnittstel- 
le zwischen den Transkriptionen der Teilworter ergibt; 

- mit Mitteln zum Bestimmen der an die mindestens eine 
Schnitts telle grenzenden Phoneme der Teilworter; 

- mit Mitteln zum Bestimmen derjenigen Grapheme der Teilwor- 
ter, die die an die mindestens eine Schnittstelle grenzen- 
den Phoneme erzeugen; 

- mit Mitteln zum erneuten Berechnen der Graphem-Phonem- 
Konvertierung der bestimmten Grapheme im Kontext der jewei- 
ligen Schnittstelle ; und 

- mit Mitteln zum anschlieftenden Schreiben der an der 
Schnittstelle neu berechneten Phoneme in eine zweite Spei- 
chereinrichtung . 
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Z u s a mm e n f a s s u n g 

Graphem-Phonem-Konvertierung 

5 Bei dem Verfahren zur Graphem-Phonem-Konvertierung eines 

Worts, das als Ganzes nicht in einem Aussprachelexikon ent- 
halten ist, wird das Wort zunachst in Teilworter zerlegt. Die 
Teilworter werden transkribiert und verkettet . Dadurch bilden 
sich Schnittstellen zwischen den Transkriptionen der Teilwor- 
10 ter. Die Phoneme an den Schnittstellen miissen haufig geandert 
werden • Daher werden sie einer erneuten Berechnung unterzo- 
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